智能论文笔记

神经算法推理的基石是解决算法任务的能力，尤其是以一种概括分布的方式。尽管近年来，该领域的方法学改进激增，但它们主要集中在建立专家模型上。专业模型能够学习仅执行一种算法或具有相同控制流骨干的算法的集合。相反，在这里，我们专注于构建通才神经算法学习者 - 单个图形神经网络处理器，能够学习执行各种算法，例如分类，搜索，动态编程，路径触发和几何学。我们利用CLRS基准来凭经验表明，就像在感知领域的最新成功一样，通才算法学习者可以通过“合并”知识来构建。也就是说，只要我们能够在单任务制度中学习很好地执行它们，就可以以多任务的方式有效地学习算法。在此激励的基础上，我们为CLR提供了一系列改进，对CLR的输入表示，培训制度和处理器体系结构，将平均单任务性能提高了20％以上。然后，我们进行了多任务学习者的彻底消融，以利用这些改进。我们的结果表明，一位通才学习者有效地结合了专家模型所捕获的知识。

translated by 谷歌翻译

Feature-Attending Recurrent Modules for Generalization in Reinforcement Learning

Wilka Carvalho , Andrew Lampinen , Kyriacos Nikiforou , Felix Hill , Murray Shanahan

分类：机器学习 | 人工智能

2021-12-15

深度加强学习（深RL）最近在开发泛化算法中看到了显着进展。但是，大多数算法都是针对单一类型的泛化设置。在这项工作中，我们研究了三个不同任务结构的概括：（a）由定期发生的物体运动的空间和时间组成组成的任务; （b）由积极的感知和导航定期发生的3D对象组成的任务; （c）任务由记住目标信息，通过定期发生的对象配置的序列。这些不同的任务结构都分享了合作性的潜在思想：任务完成始终涉及结合任务导向的感知和行为的反复性段。我们假设代理可以在任务结构中概括，如果它可以发现捕获这些重复任务段的表示。对于我们的任务，这对应于识别单个对象动作的表示，用于向3D对象导航，并通过对象配置导航。从认知科学中获取灵感，我们为代理人经验的经常性细分而言，“感知模式”的阶段代表。我们提出了参加经常性模块（农场）的功能，该功能学习了一种状态表示，其中感知模式分布在多个相对较小的复发模块中。我们比较农场到经常性的架构，从而利用空间关注，这将观察特征减少到空间位置的加权平均值。我们的实验表明，我们的特征注意力机制更好地使农场能够通过我们学习的各种对象的域来推广。

translated by 谷歌翻译